AI资讯新闻榜单内容搜索-Transforme

ICML 2026 | 打破「回音室」效应！人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

近年来，Mixture-of-Experts（MoE）已经成为大模型扩展的重要架构之一。相比稠密 Transformer，MoE 通过稀疏激活机制，在每个 token 上只调用少量专家，从而在控制计算成本的同时扩大模型容量。然而，一个长期存在的问题是：专家越多，并不意味着专家真的学得越 “专”。

来自主题: AI技术研报

7448 点击 2026-05-23 09:56

刚刚，Cohere放出2180亿参数的MoE大模型Command A+，单张B200可跑，支持48种语言，还带原生引用能力。但这次发布最炸的，不在参数表上，而在那一个许可证：Apache 2.0。

来自主题: AI资讯

8517 点击 2026-05-22 16:01

序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的 Transformer 模型计算复杂度随序列长度平方增长，在长序列任务中面临显著的计算挑战。因此，研究者们一直在探索具有线性计算复杂度的高效序列建模方法。

来自主题: AI技术研报

5563 点击 2026-05-18 15:30

Transformer统治地位悬了！一款SubQ模型带着SAA架构横空出世，1200万上下文成本仅Opus的5%，计算量暴减千倍。

来自主题: AI资讯

9668 点击 2026-05-07 10:59

你有没有想过，为什么 AI 读一篇短文游刃有余，却在面对一整个代码库时频频出错？

来自主题: AI技术研报

5980 点击 2026-05-06 14:57

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架，该方法是一种通用的验证机制，可与任意Agent Harness和模型结合。

来自主题: AI技术研报

8387 点击 2026-04-27 15:18

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报

9242 点击 2026-04-24 16:13

几乎所有 Transformer 都在做一件反常的事：把大量注意力集中到少数几个特定 Token 上。这不是 bug，而是 Transformer 固有的「注意力汇聚」（Attention Sink）。首篇系统性综述，带你从利用、理解到消除，全面掌握这一核心现象。

来自主题: AI技术研报

8647 点击 2026-04-24 09:14

就在刚刚，Codex平台爆发重大泄漏事故，内部测试环境疑似误推生产环境。GPT-5.5、「风速狗」Arcanine、「海森堡」以及神秘的Glacier集体亮相。奥特曼口中那个「比Transformer更伟大的架构」，难道已经藏在这些模型背后？

来自主题: AI资讯

8554 点击 2026-04-23 15:26

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8278 点击 2026-04-23 14:46